home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000061_owner-urn-ietf _Wed Nov 6 10:24:27 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  7KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id KAA12361 for urn-ietf-out; Wed, 6 Nov 1996 10:24:27 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id KAA12356 for <urn-ietf@services.bunyip.com>; Wed, 6 Nov 1996 10:24:25 -0500
  3. Received: from IG.CS.UTK.EDU by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA10219  (mail destined for urn-ietf@services.bunyip.com); Wed, 6 Nov 96 10:24:20 -0500
  5. Received: from localhost by ig.cs.utk.edu with SMTP (cf v2.11c-UTK)
  6.           id KAA06852; Wed, 6 Nov 1996 10:18:33 -0500 (EST)
  7. Message-Id: <199611061518.KAA06852@ig.cs.utk.edu>
  8. X-Uri: http://www.cs.utk.edu/~moore/
  9. From: Keith Moore <moore@cs.utk.edu>
  10. To: Martin J Duerst <mduerst@ifi.unizh.ch>
  11. Cc: tallen@fsc.fujitsu.com, moore@cs.utk.edu, urn-ietf@bunyip.com
  12. Subject: Re: [URN] I18N does not belong in URNs 
  13. In-Reply-To: Your message of "Wed, 06 Nov 1996 11:04:14 +0100."
  14.              <"josef.ifi..610:06.10.96.10.04.17"@ifi.unizh.ch> 
  15. Date: Wed, 06 Nov 1996 10:18:33 -0500
  16. Sender: owner-urn-ietf@services.bunyip.com
  17. Precedence: bulk
  18. Reply-To: Keith Moore <moore@cs.utk.edu>
  19. Errors-To: owner-urn-ietf@bunyip.com
  20.  
  21. > >That's an argument specifically against using UTF-8 at all.  I'd
  22. > >like to hear more on this point from the UTF-8 proponents.
  23. > The internet as such (TCP/IP) transports any kind of octets whatsoever.
  24. > Some of the higher level protocols fail in this respect because
  25. > of the short-sightedness of their designers. The worst is E-Mail,
  26. > because it works not only on the internet, but also with other
  27. > networks. But this is known, and with MIME, it is no problem
  28. > anymore.
  29.  
  30. Disagree.  Many people do not have MIME mailers; many of those
  31. who do have MIME mailers do not have the ability to send or 
  32. receive UTF-8 in MIME.  This isn't going to change anytime soon.
  33. Even when it does change, people still won't be able to effectively
  34. transcribe arbitrary UTF-8 characters.  This idea is a non-starter.
  35.  
  36. > Also, the URN syntax draft clearly specifies how URNs are
  37. > transported over 7-bit channels (using %HH). This works for
  38. > URLs, there is no reason it shouldn't work for URNs.
  39.  
  40. It doesn't work for URLs either if people see Kanji (or whatever)
  41. on their screens (or business cards) but can't type it in.
  42.  
  43. > >| URNs should not be in any language, not even English.  I would
  44. > >| enthusiastically support requiring all URNs to be in a restricted
  45. > >| character set or otherwise discourage human friendliness (though due
  46. > >| to grandfathering requirements, each URN scheme would need its own
  47. > >| rules for ensuring this).
  48. > >
  49. > >That's an absolute show-stopper, if you are asking that existing
  50. > >naming schemes develop encryption methods to transform their names
  51. > >into unreadable strings.  People just won't do it because they
  52. > >will see it as unreasonable and unnecessary.  
  53. > Exactly. And it is also an absolute show-stopper if the "restricted
  54. > character set" still allows to use meaningful English, or if the
  55. > restricted character set contains characters such as ~[]{}^<>\#|`
  56. > ("unsafe" or not) that don't appear on the average non-US keyboard,
  57. > or the "$" that can easily be seen as a demonstration of US "superiority".
  58.  
  59. My idea is that each URN scheme should specify its own rules for
  60. how to make its part of the name space transcribable.  Using odd
  61. characters such as those you mention would rule it out.  And each
  62. URN scheme would also specify the discipline to be used for 
  63. assigning new names, such that they would not use meaningful 
  64. English or anything else.
  65.  
  66. As for the '$' and US superiority, get real.  I realize lots of
  67. people are sensitive about such things, but hopefully we all know
  68. that when viewed 
  69.  
  70. > Keith, why don't you make an URN syntax proposal that only allows
  71. > the characters "0" and "1"? It can easily be shown that with
  72. > appropriate, protocol-or-whatever-specific encoding mechanisms,
  73. > that will be enough to grandfather whatever has to be grandfathered.
  74.  
  75. I'm not going to dignify this with an answer.
  76.  
  77. > Or why don't you define a specific URN subspace, in which only
  78. > numerical digits are allowed, and then see how well it gets populated
  79. > in comparison with spaces that allow i18n?
  80.  
  81. You mean like ISBNs?   (oh sorry, they use digits '-' and 'X')
  82.  
  83. If you want long-term stable resource identifiers, you don't assign
  84. them according to what's popular.
  85.  
  86. > >We should be building the big tent that everyone can live under,
  87. > >not trying to close out name spaces we don't like.  If we were
  88. > >to discourage readability we would find URNs ignored by
  89. > >users of at least some name spaces, and we would no longer have
  90. > >the unified noncolliding name space we presently contemplate.
  91. > Exactly. URLs were supposedly designed to not be human-readable,
  92. > or so I was told by some people that are now on this group.
  93. > Current practice shows that this design aim was failed by
  94. > a wide margin. 
  95.  
  96. URLs inherently reflect the naming structure of their underlying
  97. filesystems.  That design goal overrode any notions of readability
  98. or non-readability for URLs.  But URNs should not be bound by such
  99. constraints.
  100.  
  101. > Some people have learned something from this
  102. > failure, namely that users want readability and meaning.
  103.  
  104. Absolutely they do.  But human-friendly identifiers are inherently
  105. ambiguous -- if not when they are assigned, then they become ambiguous
  106. over time.  This is inherent in the way we usually name things -- we 
  107. borrow meaning from elsewhere and lend it to something new.  Names are 
  108. nearly always imprecise. 
  109.  
  110. > They even put it into telephone numbers, which, by the proponents
  111. > of non-meaningful URLs/URNs, are cited as examples for well-
  112. > working non-meaningful schemes.
  113. > The conclusion is very clear: To deny readability and meaningfulness
  114. > is to ignore human nature.
  115.  
  116. Except that URNs aren't really designed for human consumption. 
  117. (other than transcribability, which isn't really consumption)
  118. The spaces to be grandfathered under URNs aren't designed for
  119. human consumption either.  They do turn out to be useful -- they're
  120. just not useful for what you have in mind.
  121.  
  122. > Anyway, incorporating UTF-8 into URNs is not an absolute
  123. > showstopper at all. It is the first attempt at recognizing
  124. > from the beginnig that i18n is an issue that is important,
  125. > and designing a sound solution for it from the beginning.
  126.  
  127. Agreed that I18N is important.
  128. But putting UTF-8 in URNs is technically unsound.
  129.  
  130. The sound solution is to put I18N (and all human friendly names)
  131. in a layer above URNs.
  132. That way, there is a clean separation between searching and
  133. fuzzy matching of (inherently ambiguous) human-friendly
  134. names, and resolution of computer-friendly resource identifiers. 
  135.  
  136. > All other attempts at i18n on the internet were done as
  137. > after-thoughts, a fact that lead to many clumsy and suboptimal
  138. > solutions. Let's not make this mistake again.
  139.  
  140. Absolutely.  Let's therefore not put I18N in a layer where it doesn't
  141. belong, and where it cannot work well, and concentrate on building 
  142. a layer where it will work well.
  143.  
  144. Keith